1
Введение в компьютерное зрение и цифровую обработку изображений
PolyU COMP5511Лекция 8
00:00

Введение в компьютерное зрение и цифровую обработку изображений

Компьютерное зрение — это область искусственного интеллекта, которая позволяет компьютерам извлекать осмысленную информацию из цифровых изображений и видео, эффективно пытаясь преодолеть семантический разрыв между исходными данными пикселей и пониманием на человеческом уровне.Цифровая обработка изображений служит фундаментальным слоем для компьютерного зрения, сосредоточиваясь на манипуляции и улучшении сигналов изображения с помощью преобразований пиксель-к-пикселю для подготовки данных к более высокому уровню интерпретации.

Ключевые принципы

  • Представление данных: На уровне машины изображение представляет собой числовую тензор вместо целостного изображения. Оттенки серого представляют собой матрицы значений интенсивности размером 2D, тогда как цветные изображения — это тензоры размером 3D, представляющие каналы красного, зелёного и синего (RGB) с размерами $H \times W \times 3$.
  • Преобразование против интерпретации: Цифровая обработка изображений в первую очередь занимается операциями «изображение-в-изображение», такими как уменьшение шума, усиление резкости или выравнивание гистограммы. Компьютерное зрение сосредоточено на операциях «изображение-в-знания», таких как классификация объектов, локализация и сегментация.
  • Обратная графическая парадигма: Компьютерное зрение можно рассматривать как обратную сторону компьютерной графики. Если графика стремится создать визуальный мир из математических моделей, то зрение стремится восстановить 3D-структуры и семантические метки из 2D-проекций.
Основная проблема
Основная проблема в этой области — это Семантический разрыв, который представляет собой разрыв между низкоуровневыми значениями пикселей, обрабатываемыми машинами, и высокоуровневыми концепциями, воспринимаемыми людьми.
Реализация на Python
Вопрос 1
Какой процесс относится к операциям «изображение-в-знания»?
Цифровая обработка изображений
Компьютерное зрение
Компьютерная графика
Выравнивание гистограммы
Вопрос 2
На уровне машины, какова структура данных стандартного цветного изображения?
Матрица 2D
Одномерный массив
Тензор 3D / Каналы RGB
Связанный список
Кейс-стади: Медицинская диагностическая система
Прочитайте сценарий ниже и ответьте на вопросы.
Больница разрабатывает новую автоматизированную медицинскую диагностическую систему, предназначенную для анализа снимков рентгена на предмет потенциальных переломов костей. Система обрабатывает исходные данные с датчиков рентгеновского аппарата и выдаёт диагностический отчёт для радиолога.
Вопрос
1. Если система применяет повышение контраста, чтобы сделать структуры костей более чёткими, это цифровая обработка изображений (DIP) или компьютерное зрение (CV)?
Ответ:
Цифровая обработка изображений. Повышение контраста — это преобразование «изображение-в-изображение», которое улучшает визуальное качество сигнала без извлечения семантического смысла.
Вопрос
2. Если система автоматически помечает определённую область как потенциальный перелом, какую задачу она выполняет?
Ответ:
Компьютерное зрение / Обнаружение объектов. Система интерпретирует содержание изображения, чтобы извлечь высокий уровень знаний (определение местоположения перелома).
Вопрос
3. Почему необходима фильтрация шума перед запуском алгоритма детекции?
Ответ:
Для улучшения качества сигнала и снижения количества ложнопозитивных результатов на этапе семантической интерпретации. Шум может быть неправильно истолкован алгоритмами компьютерного зрения как реальные признаки или границы.